~今天要分享的是「ETL的介紹」~
ETL是在資料預處理的階段執行,目的是讓結構資料與非結構資料經過此技術後,變得更容易分析。
它由三個英文單字所組成,分別是:Extraction擷取、Transformation轉換、Loading載入。
在第一步「Extraction擷取」的階段時,會從多個來源(像是檔案、資料庫、網路等)提取原始資料,這個階段會將大檔案分割成數個小檔案,然後逐一進行資料擷取,最後將這些資料放入暫存區。
在第二步「Transformation轉換」的階段時,會進行資料清洗、資料轉換和資料匯總等處理,以確保資料的一致性和完整性來提高資料的可用性。
在第三步「Loading載入」的階段時,會把經過轉換階段後的資料從暫存區載入到資料倉儲,其中載入的方法可以是使用串流處理或是批次處理,這兩個方法最大的差別是,通常使用批次處理的資料量都很大,所以需要花費的時間會比較久,而串流處理則相反。
雖然ETL的基本概念可能相比其他數據分析的知識點來的較為簡單,但這是我曾經在準備考試時遇到的新知識,因此我希望分享给大家,讓大家都能掌握到這一個重要的概念。